“我们怎样才能通过简单地告诉他们,从动画电影剧本或移动机器人的3D角色我们希望他们做什么?” “我们如何非结构化和复杂的可以造一个句子,仍然从其生成合理的运动?”这些都是需要在长期得到回答,因为领域仍然处于起步阶段的问题。通过这些问题的启发,我们提出了产生成分操作的新技术,它可以处理复杂的输入句子。我们的产量是描绘在输入句子中的动作三维姿态序列。我们提出了一个分级二流顺序模型,探讨对应于给定的运动自然语言中的句子和三维姿态序列之间的精细联合级映射。我们学习运动的两个集管表示 - 每一个上半身下半身动作。我们的模型可以生成简短的句子描述单个动作以及长组成的句子描述多个连续叠加行动似是而非的姿势序列。我们评估的公开可用的KIT运动语言数据集含有与人类标注的句子3D姿势数据我们提出的模型。实验结果表明,我们的模型以50%的余量前进的状态的最先进的在客观评价基于文本的运动的合成。基于用户研究定性评价表明我们的合成运动被认为是最接近地面实况动作捕捉短期和组成句子。
translated by 谷歌翻译
上印度河盆地喜马拉雅山为2.7亿人和无数的生态系统提供水。然而,在这一领域,降水是水文建模的关键组成部分。围绕这种不确定性的关键挑战来自整个盆地降水的复杂时空分布。在这项工作中,我们提出了具有结构化非平稳核的高斯过程,以模拟UIB中的降水模式。先前试图在印度库什karakoram喜马拉雅地区量化或建模降水的尝试通常是定性的,或者包括在较低分辨率下无法解决的粗略假设和简化。这项研究也几乎没有错误传播。我们用非平稳的Gibbs内核参数为输入依赖性长度尺度来解释降水的空间变化。这允许后函数样品适应印度河地区不同基础地形所固有的不同降水模式。输入依赖的长度尺寸由带有固定平方 - 指数内核的潜在高斯过程控制,以使功能级别的超参数平稳变化。在消融实验中,我们通过证明其对空间协方差,时间结构和关节时空重建的能力来激励所提出的内核的每个组成部分。我们通过固定的高斯工艺和深度高斯工艺进行基准测试模型。
translated by 谷歌翻译
随着COVID-19现在普遍存在,对高危个体的识别至关重要。利用来自宾夕法尼亚州西南部主要医疗保健提供者的数据,我们开发了预测严重Covid-19进展的生存模型。在这项工作中,我们在依赖许多功能的更准确模型和依赖一些与临床医生直觉相一致的功能的模型之间面临一个权衡。使事情变得复杂,许多EHR功能往往较低,从而降低了较小模型的准确性。在这项研究中,我们开发了两组高性能风险评分:(i)由所有可用功能构建的无约束模型;(ii)在训练风险预测因子之前,在培训风险预测因子之前就学习一小部分临床概念的管道。学到的概念提高了相应特征(C-Index 0.858 vs. 0.844)的性能,并在评估样本外(随后的时间段)时证明了(i)的改进。我们的模型表现优于先前的工作(C-Index 0.844-0.872 vs. 0.598-0.810)。
translated by 谷歌翻译
对未知环境的探索是机器人技术中的一个基本问题,也是自治系统应用中的重要组成部分。探索未知环境的一个主要挑战是,机器人必须计划每个时间步骤可用的有限信息。尽管大多数当前的方法都依靠启发式方法和假设来根据这些部分观察来规划路径,但我们提出了一种新颖的方式,通过利用3D场景完成来将深度学习整合到探索中,以获取知情,安全,可解释的探索映射和计划。我们的方法,SC-explorer,使用新型的增量融合机制和新提出的分层多层映射方法结合了场景的完成,以确保机器人的安全性和效率。我们进一步提出了一种信息性的路径计划方法,利用了我们的映射方法的功能和新颖的场景完整感知信息增益。虽然我们的方法通常适用,但我们在微型航空车辆(MAV)的用例中进行了评估。我们仅使用移动硬件彻底研究了高保真仿真实验中的每个组件,并证明我们的方法可以使环境的覆盖范围增加73%,而不是基线,而MAP准确性的降低仅最少。即使最终地图中未包含场景的完成,我们也可以证明它们可以用于指导机器人选择更多信息的路径,从而加快机器人传感器的测量值35%。我们将我们的方法作为开源。
translated by 谷歌翻译
欧几里得最短的路径问题(ESPP)是许多实际应用的精心研究的问题。最近,基于射线拍摄和多边形扫描,已经开发了一种新的高效在线方法Rayscan。在本文中,我们展示了如何通过仔细理解多边形扫描来改善Rayscan。我们还研究了如何在单源多目标方案中应用Rayscan,在扫描过程中,逻辑用于减少所需的射线射击数量。这种改进也有助于单个目标情况。我们将改进的Rayscan+与最新的ESPP算法进行比较,说明了情况更好的情况。
translated by 谷歌翻译
高维空间中的大约最近的邻居搜索(ANN)对于许多现实生活应用程序(例如电子商务,Web,多媒体等)至关重要。在本文中,我们提出了一个端到端的学习框架,该框架将分区(ANN的一个关键步骤)和使用自定义损失函数进行学习进行搜索步骤。我们提出的解决方案的关键优势是,它不需要对数据集进行任何昂贵的预处理,这是最新方法的关键局限性之一。我们通过制定不需要地面真实标签来量化数据空间分区的质量的多目标自定义损失函数来实现上述边缘,从而完全不受监督。我们还通过在损失功能中添加不同的输入权重来训练模型集合以增强搜索质量来提出一种结合技术。在几个标准的ANN标准基准上,我们表明我们的方法击败了最新的空间分区方法和无处不在的K-均值聚类方法,同时使用较少的参数和较短的离线训练时间。在没有一般性的情况下,我们的无监督分区方法被证明是许多广泛使用的聚类方法(例如K-均值聚类和DBSCAN)的有希望的替代方法。
translated by 谷歌翻译
提取手写文本是数字化信息的最重要组成部分之一,并使其可用于大规模设置。手写光学角色读取器(OCR)是计算机视觉和自然语言处理计算的研究问题,对于英语,已经完成了许多工作,但是不幸的是,对于乌尔都语(例如乌尔都语)的低资源语言,几乎没有完成工作。乌尔都语语言脚本非常困难,因为它具有基于其相对位置的角色形状的草书性质和变化,因此,需要提出一个模型,该模型可以理解复杂的特征并将其推广到各种手写样式。在这项工作中,我们提出了一个基于变压器的乌尔都语手写文本提取模型。由于变压器在自然语言理解任务中非常成功,因此我们进一步探索它们以了解复杂的乌尔都语手写。
translated by 谷歌翻译
可见光面图像匹配是跨模型识别的具有挑战性的变化。挑战在于,可见和热模式之间的较大的模态间隙和低相关性。现有方法采用图像预处理,特征提取或常见的子空间投影,它们本身是独立的问题。在本文中,我们提出了一种用于交叉模态面部识别的端到端框架。该算法的旨在从未处理的面部图像学习身份鉴别特征,并识别跨模态图像对。提出了一种新颖的单元级丢失,用于在丢弃模态信息时保留身份信息。另外,提出用于将图像对分类能力集成到网络中的跨模判位块。所提出的网络可用于提取无关的矢量表示或测试图像的匹配对分类。我们对五个独立数据库的跨型号人脸识别实验表明,该方法实现了对现有最先进的方法的显着改善。
translated by 谷歌翻译